开源分析方法 | 专利分析工具(下)【中国科讯】
本文的工具介绍主要分成八个部分:
通用工具(General Tools)
数据清洗工具(Cleaning Tools)
数据挖掘(Data Mining)
数据可视化(Data Visualisation)
网络数据可视化(Network Visualisation)
信息可视化(Infographics)
地理数据可视化(Geographic Mapping)
文本挖掘(Text Mining)
上期已经介绍了第1-4点,今天我们接着介绍第5-8点所涉及的开源工具。
5. 网络数据可视化(Network Visualisation)
网络数据可视化软件在科学技术分析,特别是科学技术关系分析领域,是一种重要的分析工具。在专利分析中,网络数据可视化有很多用处,包括:
1. 用于可视化某一特定技术领域中,申请人和发明人之间关联关系。
下图是合成生物学领域将近2000位论文作者的网络关系图。
2. 可视化IPC或CPC分类号的技术领域及这些分类号之间的技术关联。
WIPO之前就采用了这样的大型网络数据分析方法来分析动物遗传资源领域的专利概况。
下图梳理了上万项在文献中出现了农场养殖动物名称(例如牛、猪、羊等)的专利文献,从这些文献中找出各IPC分类号或CPC分类号在同一文献中出现的情况,并用网络图把这些分类号在同一文献中共存在的关系展示出来。图中的每一个节点表示一个分类号。节点之间距离越近,说明这些分类号在同一文献中出现的次数越多,由此表示这些分类号之间的技术相似度越高,而这些关系紧密的分类号所涉及的文献的技术关联度也就越高。而距离相隔较远的节点代表的文献技术关联度则较低,比如烹饪设备和动物的住房,这些集群中的文献就可以更快速的被排除。动物遗传资源专利分析报告的作者采用这一网络图作为数据挖掘的工具来寻找目标文献。
3. 将专利文献中的关键词的出现频率及其与其他关键词之间的关系进行网络数据可视化,能够作为专利分析的进一步探索与完善。
也是在WIPO动物遗传资源的案例中,该报告的作者将词干相同的词语聚集在一起以了解与动物育种有关的动物新品种有哪些。
因此,网络数据可视化即可以看做是用于探索某一技术主题的一种工具,也可以看做是一种最终的可视化作品。
5.1 Gephi
Gephi是一种基于Java的开源网络可视化生成工具。它可以实现大量数据的处理来生成强大的网络数据可视化(当然处理能力也跟你的电脑性能有关)。
TIPS:使用Gephi时需要注意,如果你是第一次安装使用,在第一次打开Gephi时会提醒给你的操作系统安装正确的Java版本。
5.2 NodeXL
对于EXCEL死忠粉,NodeXL是Excel的一种插件,能够生成网络图,而且比较好用。
5.3 Cytoscape
Cytoscape也是一个网络数据可视化工具。它原本是设计用来做生物网络可视化和交互的,但是就像许多其他的生物信息学工具一样,也可以用来做更广泛的可视化工具。
我们做网络数据可视化主要是采用Gephi,但是Cytoscape也非常值得探索其使用方法,因为使用Cytoscape不会出现Java版本不对的问题。
5.4 Pajek
Pajek是最早开源网络数据可视化工具,但是只有Windows系统可以用。它在文献计量学中被广泛应用,并且可以处理大量数据。作者本人更加推荐Gephi,因为相比而言,Gephi更加灵活。但Pajek在精度上更有优势,更易于重复实现和文件保存。
对于想体验一下Gephi的用户来说,可以将从Pajek导出的数据直接导入Gephi,操作还是比较方便的。
5.5 VOS Viewer
VOS Viewer由莱顿大学开发,功能与Gephi和Cytoscape相似,但是它具有更多的视觉效果。最新的版本也可以与Gephi和Cytoscape相连。如果想获得更多的视觉效果,VOS Viewer值得一试。并且它还识别Web of Science和Scopus bibliographic的数据。
5.6 Hive Plots
对于Hive Plots这个工具我们也不是很熟。但是我们对其制作网络图的目的很是赞同,这个目的就是利用网络图使复杂的数据变得清晰,而不是说“哇,快看,我做了一个看起来像意大利粉的网络图”这样(仅仅看它的外在形式,而不去深究数据深意)。因此,我们觉得由加拿大BC肿瘤研究所基因组科学中心的科学家Martin Krzywinski开发的Hive Plots这个工具值得推荐。
在讨论了网络图制作工具之后,我们还要注意的是网络图数据可视化需要输出成图片格式。也就意味着还需要有图像处理软件。开源的工具例如GNU图像处理程序(简称GIMP)就可以用来处理图像。
对于其他的网络数据可视化资源,可以参考FlowingData。也可以看看Visual Complexity和visualising data来获得些灵感。
6.信息可视化(Infographics)
信息图在近些年越来越受到关注,成为信息传递的重要方式之一。信息图的有用之处在于将复杂的研究成果用简单直观的方式展示传递。WIPO的专利分析项目就制作了很多信息图来展示其专利分析成果。
由于信息图表的日益普及,网络上也出现了很多在线制作信息图的免费工具。但是这些工具也有其局限,比如可选择的图表数量有限等等。但是作为一个越来越受到关注的领域,这些问题以后肯定会解决。下面列出了一些可以在线制作信息图的工具,有兴趣的同学可以去试试。
6.1 Piktochart.com
(https://piktochart.com/)
6.2 Canva.com
(https://www.canva.com/create/infographics/)
6.3 Infogr.am
(https://infogr.am/pricing)
6.4 Visme
(https://www.visme.co/)
6.5 Easel.ly
(https://www.easel.ly/create/)
还可以去Cool Infographics这个网站寻找其他有用的资源,发现全球最潮信息图和最in信息图制作工具。苹果的Keynote,Open Office Presentation和Powerpoint也可以用来制作信息图。
7.地理数据可视化(Geographic Mapping)
除了无所不在的谷歌地图和众所周知的谷歌地球之外,我们在此再推荐一下别的工具。
7.1 OpenStreetMap
很流行。
7.2 Leaflet
一个非常流行的基于JavaScript的开源工具,可用于制作交互式地图。
7.3 Tableau Public
在前面已经提到过了。Tableau Public使用开源的街景地图来创建强大的交互地图。Tableau Public应该是你用专利数据来制作地图的最好用的初学者工具。
可以去下面的连接看交互图表:
http://public.tableau.com/profile/poldham#!/vizhome/SyntheticBiologyScientificLandscape/SyntheticBiologyTrends
Tableau Public使用简单的方法制作有效的交互式地图成为了可能。
7.4 QGIS
QGIS是一个用户界面友好的桌面地理信息系统,可运行在Linux、Unix、Mac OSX和Windows等平台之上。
Oldham和Hall等人使用QGIS将全球海洋科学研究和相关专利文献中提及的地理位置标注在了地图上,见下图。下图就是一个低分辨率的QGIS地图,展示了通过对相关科学文献的文本挖掘,得到的海洋科学研究的地理位置。
7.5 Geonames.org.
GeoNames不是一个地图制作的程序,GeoNames而是与地理信息有关的一个数据库、Web 服务和目标站点。如果你需要大量的地理位置的参考数据,GeoNames应当是你的首选。
7.6 iCharts
一个免费的和高级的数据可视化服务。
7.7 OpenLayers3
OpenLayers3允许你将自己的绘制的图层加入到OpenStreetMap中。这对于寻求制作自己地图图层的人来说特别有用。用时OpenLayers3也具有API(应用程序编程接口)和教程。
7.8 CartoDB
具有免费版和付费版的不同级别账号,能够提供很多好看的可视化实例。
7.9 D3.js
D3是最流行的可视化库之一,它被很多其他的表格插件所使用,其基于Javascript来处理数据和文献。D3几乎是很多我们经常提及的在线可视化工具背后的库。
7.10 Highcharts
一个拥有很多漂亮图表实例图表库,具有免费的非商业版本和不同的收费版本。
7.11 Datawrapper
一个可以使用你自己的数据来创建图表和地图的完全开源的服务。很多大的新闻媒体都是用这个服务来制作他们的数据新闻图表,所以Datawrapper的图表会让我们看上去有种很熟悉的感觉。这个服务也是有免费的功能可供使用,同时也有付费账号可以使用更高级的功能。
7.12 Plotly
plotly是一款在线的科学绘图、数据分析软件,你可以把他想象成在线版本的Origin,支持桌面以及移动浏览器。
8.文本挖掘(Text Mining)
目前有很多文本挖掘的工具,其中有很多也是免费和开源的。以下是我们推荐的部分文本挖掘工具。
8.1 Jigsaw Visual Analytics
Jigsaw是一款免费的文本可视分析系统,它可以读入文本数据,自动提取实体,建立主题模型。此外,它提供了一系列可视化图表来显示文本的各种特征。用户可以在多种视图之间切换,改变各种视觉特性。但是,Jigsaw不支持对原始数据预处理,也不太支持模型参数选择。
8.2 Weka
基于Java的文本挖掘软件。
8.3 Word Trees
Word trees可以用于对文本的探索,比如权利要求树(claims trees)(对于Word Tree或是claims tree在专利分析中的用处,本文没有多做解释,小编觉得可能是为了通过分析权利要求的撰写方式来帮助理解技术方案?)。
可以使用Google Word Trees来制作Word trees。Google Word Trees在Google Developers站点上,其提供了使用Javascript和树生成器(tree creator)生成word tree的指引。
8.4 KH Coder
一个免费软件,其提供了对大量文本内容进行分析和文本挖掘。
8.5 R和tm软件包
RStudio中的tm软件包提供了一系列的文本挖掘工具。这个软件包的开发者还写了一个介绍,可以从此链接下载:
http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
在R的相关博客上也有很多有用的tm软件包使用方法介绍。
还有一本书手把手教你使用R进行文本挖掘——《Hand-On Data Science with R Text Mining》,作者Graham Williams,出版年份2014年。
另外,还有Fridolin Wild于2104年出版的关于R中的文本挖掘工具概览一书《CRAN Task View: Natural Language Processing listing the various packages and their uses》
我们注意到,很多文本挖掘软件包都是关注于生成单词,这对于很多非学术性目的的研究还算是有用。但是,我们专利分析的文本挖掘主要关注于提取和分析短语,因此,寻找那些能够提取和分析短语的工具是很必要的。
8.6 Python and Text Mining
基于Python语言的文本挖掘资源也有很多。现在越来越多的时候,我们都是将Python和R联合使用来进行文本挖掘。下面介绍一些基于Python的资源来帮助你从零开始。
8.6.1 The Natural Language Toolkit (NLTK)
The Natural Language Toolkit貌似是现在最牛的软件包,几乎能够满足所有的主要需求。其配到的教科书《Natural Language Processing with Python》也值得一读。
有关的NLTK的零基础入门教程,可以点从链接下载: http://textminingonline.com/dive-into-nltk-part-i-getting-started-with-nltk
8.6.2 The Python Textmining Package
这个软件比The Natural Language Toolkit (NLTK)简单一点,不过也能满足你的大部分需求。
8.7 Other text mining resources
要看了解更多的文本挖掘工具,可以看这篇文章“top 20 free text mining software tools”(相关链接:http://www.predictiveanalyticstoday.com/top-free-software-for-text-analysis-text-mining-text-analytics/)
要了解更多关于免费文本挖掘的工具,可以去浏览语言语义学的相关网站,比如下面三个链接:
http://linguistlist.org:8888/sp/SearchWRListing-action.cfm?subclassid=7223&SearchType=LF&WRTypeID=2;
http://www.uow.edu.au/~dlee/software.htm;
http://ucrel.lancs.ac.uk/tools.html
一些分析工具,比如Search Technology公司的VantagePoint是专门为分析处理专利数据而设计开发的,它有一个资助版本对于vpinstitute的学生免费。(相关链接:https://www.thevantagepoint.com/)
当然也有很多数据分析的软件可以用于专利数据的分析,例如:
MAXQDA(http://www.maxqda.com/)
NVivo(http://www.qsrinternational.com/products_nvivo.aspx)
Atlas TI(http://atlasti.com/)
QDA Miner(http://provalisresearch.com/products/qualitative-data-analysis-software/)
小结
在这篇文章中,我们介绍了一些主要的可用于专利分析的免费和开源工具。这些工具并非专门用于专利分析,但是其功能可以满足专利分析的需求。专利数据在经过了数据清洗、专利申请人及发明人名称的归一化以及技术领域的标引之后,非常适合数据可视化和网络数据的展示。专利文献著录项目中包含了国家、申请人地址、代理机构地址等地理信息,这也就意味着专利数据也可以用地图来展示。
在实践中,找到一组对于你的专利分析工作最适合的工具以及专利分析的方法都是很重要的。
总而言之,虽然使用这些免费的可视化工具能够基本满足所有专利分析的需求,但是将免费工具和收费软件结合起来使用,会提高你的分析效率。因此,了解这些工具的功能和你的分析需求十分必要。
所以,如果我们第一次选择使用开源的软件,首先看看下面的问题列表,搞清楚这些问题了,你的开源工具也就很好选择了。这个清单也许并不全面,仅仅是为了帮助你在选择开源工具上头脑更加清晰。
1. 用这个工具的靠谱吗?也就是说,你清楚这个开发工具的目的是什么吗?如果答案是是,那么就是个好现象,你可以尝试使用这个工具。如果答案是否定的,那么这个工具对你的需求来说可能还是太特殊了,或者这个工具的开发者没有把工具解释的很清楚,那么这就不是个好现象,此时,选择这个工具要慎重。
2. 你了解编写这个工具的语言吗?如果你不懂这个语言的话,这是否会成为你使用这个工具的障碍?如果让一个人从零开始学习这个语言,你觉得这个成本是不是值得?是否有免费的或是能够承受的课程可供学习?
3. 这个工具的源代码是否是开源的,使用这个工具的源代码在其基础上的修改会否产生知识产权的问题?
4. 数据的安全性问题。如果你将专利分析的数据上传到一个基于网站的服务器上,谁拥有数据?谁能在什么样的情况下获取到这个数据?如果这些数据与商业相关,那么你就需要考虑这个问题。
5. 免费到底意味着什么?很多工具或软件的免费版本往往意味着还有收费版本。在很多工具中,免费版本往往只能处理、保存或输出有限量的数据。不过有些工具的免费版本是没有这些限制的。但是,使用这些工具的技能的培养和学习却是要花费大量的时间和费用的。
6. 还有哪些别的公司(或机构)在使用这个工具?如果有别的公司或机构都在使用这个工具,这也能反映出这个工具应该是比较靠谱的,而且我们还能从他们的分析报告中找来使用这个工具作分析的实例。
7. 现有技术中有没有很多资料帮助我们学些这种工具的使用方法?遇到疑难问题的时候是不是可以很方便的找到人帮忙解决?这是一个鉴别这一工具是否开发成熟的指标,比如如果这个工具的使用者有一个论坛或聊天群的话,就比较好。
8. 这个工具的使用者论坛和聊天群的活跃程度,高手们是否经常创建一些模型或是写一些教程分享给大家。
……
文章来源:专利分析可视化
转载授权、合作、投稿事宜请联系linan@mail.las.ac.cn
近期文章推荐
↓↓↓点击标题即可查看
春节还在看文献写论文?10种数据库导入EndNote全集送你!(附Endnote X8下载链接)【中国科讯】